# coding：utf-8

from pyspark import SparkConf,SparkContext
import os
os.environ['JAVA_HOME'] = "/server/jdk"

if __name__ == '__main__':
    conf = SparkConf().setAppName('text').setMaster('local[*]')
    sc = SparkContext(conf = conf)

    # 通过textFile 读取文件数据
    file_rdd1 = sc.textFile('../data/input/words.txt')
    print('默认分区数： ',file_rdd1.getNumPartitions())
    print('file_rdd1内容： ', file_rdd1.collect())

    # 用最小分区数的设置
    file_rdd2 = sc.textFile('../data/input/words.txt',3)
    file_rdd3 = sc.textFile('../data/input/words.txt', 100)  #当设置分区数过大时，spark会自己判断分区数
    print('file_rdd2分区数： ',file_rdd2.getNumPartitions())
    print('file_rdd3分区数： ',file_rdd3.getNumPartitions())
